Our team, Hibikino-Musashi@Home (the shortened name is HMA), was founded in 2010. It is based in the Kitakyushu Science and Research Park, Japan. We have participated in the RoboCup@Home Japan open competition open platform league every year since 2010. Moreover, we participated in the RoboCup 2017 Nagoya as open platform league and domestic standard platform league teams. Currently, the Hibikino-Musashi@Home team has 20 members from seven different laboratories based in the Kyushu Institute of Technology. In this paper, we introduce the activities of our team and the technologies.
translated by 谷歌翻译
Large-scale vision-language models such as CLIP have shown impressive performance on zero-shot image classification and image-to-text retrieval. However, such zero-shot performance of CLIP-based models does not realize in tasks that require a finer-grained correspondence between vision and language, such as Visual Question Answering (VQA). We investigate why this is the case, and report an interesting phenomenon of CLIP, which we call the Concept Association Bias (CAB), as a potential cause of the difficulty of applying CLIP to VQA and similar tasks. CAB is especially apparent when two concepts are present in the given image while a text prompt only contains a single concept. In such a case, we find that CLIP tends to treat input as a bag of concepts and attempts to fill in the other missing concept crossmodally, leading to an unexpected zero-shot prediction. For example, when asked for the color of a lemon in an image, CLIP predicts ``purple'' if the image contains a lemon and an eggplant. We demonstrate the Concept Association Bias of CLIP by showing that CLIP's zero-shot classification performance greatly suffers when there is a strong concept association between an object (e.g. lemon) and an attribute (e.g. its color). On the other hand, when the association between object and attribute is weak, we do not see this phenomenon. Furthermore, we show that CAB is significantly mitigated when we enable CLIP to learn deeper structure across image and text embeddings by adding an additional Transformer on top of CLIP and fine-tuning it on VQA. We find that across such fine-tuned variants of CLIP, the strength of CAB in a model predicts how well it performs on VQA.
translated by 谷歌翻译
最近,已经开发了各种视觉变压器作为对远程依赖性建模的能力。在当前的基于变压器的主骨用于医疗图像分割的骨架中,卷积层被纯变压器替换,或者将变压器添加到最深的编码器中以学习全球环境。但是,从规模的角度来看,主要有两个挑战:(1)尺度内问题:在每个尺度中提取局部全球线索所缺乏的现有方法,这可能会影响小物体的信号传播; (2)尺度间问题:现有方法未能从多个量表中探索独特的信息,这可能会阻碍表示尺寸,形状和位置广泛的对象的表示形式学习。为了解决这些局限性,我们提出了一个新颖的骨干,即比例尺形式,具有两个吸引人的设计:(1)尺度上的尺度内变压器旨在将基于CNN的本地功能与每个尺度中的基于变压器的全球线索相结合,在行和列的全局依赖项上可以通过轻巧的双轴MSA提取。 (2)一种简单有效的空间感知尺度变压器旨在以多个尺度之间的共识区域相互作用,该区域可以突出跨尺度依赖性并解决复杂量表的变化。对不同基准测试的实验结果表明,我们的尺度形式的表现优于当前最新方法。该代码可公开可用:https://github.com/zjugivelab/scaleformer。
translated by 谷歌翻译
微调加强学习(RL)模型由于缺乏大规模的现成数据集以及不同环境之间可传递性的较高差异而变得具有挑战性。最近的工作着眼于从序列建模的角度来应对离线RL,并通过引入变压器体系结构的结果得到改进的结果。但是,当模型从头开始训练时,它会遭受缓慢的收敛速度。在本文中,我们希望利用这种强化学习作为序列建模的表述,并研究在离线RL任务(控制,游戏)上进行填充时,在其他领域(视觉,语言)上进行了预训练的序列模型的可传递性。为此,我们还提出了改善这些域之间传递的技术。结果表明,在各种环境上的收敛速度和奖励方面,表现出一致的性能,加速了3-6倍的训练,并使用Wikipedia-pretrenained and GPT2语言模型在各种任务中实现了最先进的绩效。我们希望这项工作不仅为RL利用通用序列建模技术和预训练模型的潜力带来启发,而且还激发了未来的工作,在完全不同领域的生成建模任务之间共享知识。
translated by 谷歌翻译
深入学习已被利用气候数据的统计侦查。具体地,已经成功地应用于降水估计的二维(2D)卷积神经网络(CNN)。该研究实现了一种三维(3D)CNN,以估计来自3D大气数据的流域规模的每日降水,并将结果与2D CNN的结果进行比较。沿时间方向(3D-CNN-TIME)和垂直方向(3D-CNN-VERT)延伸2D CNN。将这些扩展CNN的降水估计与第2D CNN的降水估计与根均方误差(RMSE),NASH-SUTCLIFFE效率(NSE)和第99百分位RMSE相比。发现3D-CNN-TIME和3D-CNN-VERT与2D CNN相比提高了降水估计的模型精度。3D-CNN-VERT在RMSE和NSE方面提供了培训和测试期间的最佳估计。
translated by 谷歌翻译
我们描述了Fink Broker早期SuperNova IA分类器如何通过采用主动学习(AL)策略来优化其ML分类。我们展示了当前Zwicky瞬态设施(ZTF)公共警报数据流执行此类策略的可行性。我们比较两个AL策略的表现:不确定性采样和随机抽样。我们的管道由3个阶段组成:功能提取,分类和学习策略。从10个警报的初始样本开始(5个SN IA和5个非IA),我们让算法识别应将哪个警报添加到训练样本中。允许系统演变为300次迭代。我们的数据集由ZTF的23 840警报组成,通过与Simbad数据库的交叉匹配和瞬态名称服务器(TNS),其中1 600个是SNE IA(1 021独特对象)的确认分类。在学习周期完成后,数据配置由310个警报进行培训和23 530进行测试。平均超过100种实现,分类器实现了89%的纯度和54%的效率。从01/11月/ 2020年至10月31日/ 10月/ 2021年Fink已将早期的Supernova IA模块应用于ZTF流,并向TNS传达有希望的SN IA候选人。从535个光谱分类的粉末候选者,459名(86%)被证明是SNE IA。我们的成果证实了积极学习策略的有效性,以指导天文分类器的最佳训练样品的构建。它在实际数据中展示了学习算法的性能可以高度改善,而无需额外的计算资源或压倒性大型训练样本。这是我们的知识,第一次应用Al到真实警报数据。
translated by 谷歌翻译
虽然U-Net在医学图像分割任务中取得了巨大的成功,但它缺乏明确模拟远程依赖性的能力。因此,视觉变压器最近被出现为替代分割结构,以便通过自我关注捕获远程相关性的先天能力(SA)。然而,变压器通常依赖于大规模的预训练并具有高的计算复杂性。此外,SA只能在单个样本内模拟自我亲和力,忽略整个数据集的潜在相关性。为了解决这些问题,我们提出了一种名为混合变压器模块(MTM)的新型变压器模块,用于同时和内部内部学习。 MTM首先通过我们设计精心设计的本地全球高斯加权自我关注(LGG-SA),有效地计算自我亲创。然后,它通过外部注意力(EA)挖掘数据样本之间的连接。通过使用MTM,我们构造一个名为混合变压器U-NET(MT-UNET)的U形模型,以进行准确的医学图像分割。我们在两个不同的公共数据集上测试我们的方法,实验结果表明,该方法达到了更好的性能,对其他最先进的方法进行了更好的性能。代码可在:https://github.com/dootmaan/mt-unet。
translated by 谷歌翻译
由一维卷积神经网络(1D-CNN)和长短期存储器(LSTM)网络组成的架构,该架构被提出为CNNSLSTM,用于在此中进行每小时降雨 - 径流模型学习。在CNNSLTSM中,CNN分量在长时间接收小时气象时间序列数据,然后LSTM组件从1D-CNN和小时气象时间序列数据接收提取的特征以进行短期持续时间。以案例研究为例,CNNSLSTM在日本伊希卡里河流域的每小时降雨径流建模。气象数据集由沉淀,空气温度,蒸发散,和长波辐射组成,用作输入,河流流量用作目标数据。为了评估所提出的CNNSLSTM的性能,将CNNSLSTM的结果与1D-CNN,LSTM的结果进行比较,仅用每小时输入(LSTMWHOUT),1D-CNN和LSTM(CNNPLSTM)的并行架构,以及使用每日的LSTM架构每小时输入数据(LSTMWDPH)。与三个传统架构(1D-CNN,LSTMWHOUL和CNNPLSTM)相比,CNNSLSTM对估计准确度明显改进,最近提出了LSTMWDPH。与观察到的流动相比,测试时段的NSE值的中值为0.455-0.469,用于1d-CNN(基于NCHF = 8,16和32,第一层的特征图的信道的数量CNN),用于CNNPLSTM的0.639-0.656(基于NCHF = 8,16和32),LSTMWHOUR的0.745,LSTMWDPH的0.831,CNNSLSTM为0.865-0.873(基于NCHF = 8,16和32)。此外,所提出的CNNSLSTM将1D-CNN的中值降低50.2%-51.4%,CNPLSTM在37.4%-40.8%,LSTMWHOUR,达27.3%-29.5%,LSTMWDPH为10.6%-13.4%。
translated by 谷歌翻译
我们分析了在线性模型中同时支持恢复和估计的同时支持恢复和估计,具有独立的且相同分布的正常误差。我们基于随机栅极(STG)[YLNK20]的非线性惩罚来应用惩罚最小方估计值,以估计系数。考虑到高斯设计矩阵,我们表明在$ \β^ * $的尺寸和稀疏性的合理条件下,基于STG的估计器会聚到真实数据生成系数向量,并且还检测其具有高概率的支持集。我们提出了一种新的基于投影基于投影的线性模型设置,以提高现有的STG估算器,最初设计用于一般非线性模型。我们的新程序优于许多古典估算器,用于在合成数据分析中支持恢复。
translated by 谷歌翻译
本研究调查了深度学习方法可以在输入和输出数据之间识别的关系。作为一个案例研究,选择了通过长期和短期内存(LSTM)网络在雪撬流域中的降雨 - 径流建模。每日沉淀和平均空气温度用作估计日常流量放电的模型输入。在模型培训和验证之后,使用假设输入进行了两个实验模拟,而不是观察到的气象数据,以澄清训练模型对输入的响应。第一个数值实验表明,即使没有输入沉淀,训练有素的模型产生流量放电,特别是冬季低流量和高流量在融雪期间。在没有沉淀的情况下,还通过训练模型复制了暖和较冷的条件对流动放电的影响。此外,该模型仅反映了在总年流量放电的积雪期间的总降水量的17-39%,揭示了强烈缺乏水量保护。本研究的结果表明,深度学习方法可能无法正确学习输入和目标变量之间的显式物理关系,尽管它们仍然能够保持强大的拟合效果。
translated by 谷歌翻译